1
Transição Além da Prompting Geral
AI011Lesson 7
00:00

Otimização por meio de Fine-Tuning e Arquiteturas Especializadas

1. Além do Prompt

Embora o "Few-Shot" seja um ponto de partida poderoso, escalar soluções de IA muitas vezes exige avançar para Fine-Tuning Supervisionado. Esse processo incorpora conhecimento ou comportamentos específicos diretamente nos pesos do modelo.

A Decisão: Você só deve realizar fine-tuning quando as melhorias na qualidade das respostas e a redução nos custos de tokens superarem significativamente os esforços computacionais e de preparação de dados necessários.

$Custo = Tokens \times Taxa$

2. A Revolução dos Pequenos Modelos de Linguagem (SLMs)

Modelos de Linguagem Pequenos (SLMs) são variantes altamente eficientes e reduzidas dos seus grandes equivalentes (por exemplo, Phi-3.5, Mistral Small). São treinados em dados altamente curados e de alta qualidade.

Compromissos: Os SLMs oferecem latência significativamente menor e permitem implantação em borda (executando localmente em dispositivos), mas sacrificam a inteligência ampla e generalizada semelhante à humana encontrada em grandes LLMs.

3. Arquiteturas Especializadas

  • Mistura de Especialistas (MoE): Uma técnica que escala o tamanho total do modelo mantendo eficiência computacional durante a inferência. Apenas um subconjunto de "especialistas" é ativado para cada token dado (por exemplo, Phi-3.5-MoE).
  • Multimodalidade: Arquiteturas projetadas para processar texto, imagens e, às vezes, áudio simultaneamente, expandindo os usos além da geração de texto (por exemplo, Llama 3.2).
A Hierarquia de Eficiência
Tente sempre Engenharia de Prompt primeiro. Se falhar, implemente RAG (Geração com Recuperação Aprimorada). Use Fine-Tuning apenas como o último passo avançado de otimização.
model_selection.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
When does the course recommend proceeding with fine-tuning over prompt engineering?
When the benefits in quality and cost (reduced token usage) outweigh compute effort.
Whenever you need the model to sound more human-like.
As the very first step before trying RAG or prompt engineering.
Only when deploying to an edge device.
Question 2
Which model architecture allows scaling model size while maintaining computational efficiency?
Supervised Fine-Tuning (SFT)
Retrieval-Augmented Generation (RAG)
Mixture of Experts (MoE)
Multimodality
Challenge: Edge Deployment Strategy
Apply your knowledge to a real-world scenario.
You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.
Task 1
Select the appropriate model family and tokenizer for this multilingual, low-resource task.
Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.
Task 2
Define the deployment framework for high-performance local inference.
Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.